Unidad 6 - Supervisión y rendimiento del sistema
Aprende a supervisar sistemas operativos, analizar rendimiento, detectar incidencias, centralizar logs, monitorizar recursos críticos y aplicar técnicas profesionales de observabilidad en entornos Windows y Linux.
6.1 Monitorización en tiempo real
La monitorización en tiempo real permite conocer el estado actual de un sistema operativo mientras está funcionando. Su objetivo es detectar problemas antes de que provoquen una caída del servicio.
Preguntas clave
- ¿Qué está ocurriendo ahora mismo?
- ¿El sistema funciona dentro de parámetros normales?
- ¿Existe un indicio temprano de fallo?
Elementos supervisados
| Recurso | Qué se analiza |
|---|---|
| CPU | Uso, carga y procesos intensivos |
| RAM | Consumo y actividad swap |
| Disco | Latencia y operaciones E/S |
| Red | Tráfico, latencia y pérdida |
Mini-Test
1. ¿Qué permite detectar la monitorización en tiempo real?
6.2 Herramientas locales o del sistema operativo
Las herramientas locales permiten analizar una única máquina de forma inmediata. Son esenciales durante incidencias, diagnósticos rápidos y troubleshooting.
Herramientas Windows
- Task Manager
- Monitor de rendimiento
- Resource Monitor
- Event Viewer
Herramientas Linux
- top
- htop
- vmstat
- iostat
- journalctl
Ventajas
| Ventaja | Descripción |
|---|---|
| Rapidez | Diagnóstico inmediato |
| Disponibilidad | Incluidas en el sistema |
| Bajo consumo | No requieren infraestructura adicional |
Mini-Test
1. ¿Qué herramienta Linux muestra procesos en tiempo real?
6.3 Plataformas centralizadas de monitorización
Cuando existen decenas o cientos de servidores, la monitorización local deja de ser suficiente. Las plataformas centralizadas permiten una visión global de toda la infraestructura.
Objetivos
- Centralizar métricas
- Generar alertas automáticas
- Crear dashboards visuales
- Correlacionar eventos
- Detectar anomalías rápidamente
Herramientas populares
| Herramienta | Función |
|---|---|
| Nagios | Monitorización y alertas |
| Zabbix | Supervisión empresarial |
| Prometheus | Recolección métricas |
| Grafana | Visualización dashboards |
Mini-Test
1. ¿Qué herramienta destaca por dashboards visuales?
6.4 htop, Task Manager, Nagios y Grafana
htop
Herramienta visual de Linux para analizar procesos, CPU, RAM y carga del sistema. Permite matar procesos y ordenar consumo.
Task Manager
El Administrador de tareas de Windows permite diagnosticar bloqueos, procesos excesivos y rendimiento.
Nagios
- Monitoriza cientos de servidores
- Genera alertas
- Controla servicios de red
- Supervisa SLA
Grafana
- Dashboards avanzados
- Alarmas configurables
- Integración con Prometheus
- Visualización histórica
| Herramienta | Uso principal |
|---|---|
| htop | Procesos Linux |
| Task Manager | Procesos Windows |
| Nagios | Alertas centralizadas |
| Grafana | Visualización métricas |
Mini-Test
1. ¿Qué herramienta se usa principalmente para dashboards?
6.5 Monitorización continuada
La monitorización continuada recopila métricas durante días, semanas o meses para detectar patrones históricos y prever problemas futuros.
Ventajas
- Análisis de tendencias
- Planificación de capacidad
- Detección de patrones horarios
- Prevención de saturaciones
Diferencia importante
| Tiempo real | Histórico |
|---|---|
| Qué pasa ahora | Qué ha pasado y por qué |
| Diagnóstico inmediato | Análisis de tendencias |
Mini-Test
1. ¿Qué permite detectar la monitorización histórica?
6.6 CPU, RAM, Disco y Red
CPU
Un uso elevado puntual es normal. El problema aparece cuando la CPU permanece saturada durante largos periodos.
RAM
Cuando la memoria se agota, el sistema utiliza swap, mucho más lento que RAM.
Disco
La latencia de disco y las colas de E/S son claves para detectar cuellos de botella.
Red
La saturación de ancho de banda y la latencia afectan directamente a las aplicaciones.
| Componente | Problema típico |
|---|---|
| CPU | Saturación prolongada |
| RAM | Thrashing |
| Disco | Latencia alta |
| Red | Congestión |
Mini-Test
1. ¿Qué ocurre durante el thrashing?
6.7 El cuello de botella oculto en el disco
Muchos problemas de rendimiento aparentemente relacionados con CPU o RAM en realidad son causados por almacenamiento lento.
Indicadores típicos
- Latencia elevada
- Colas E/S largas
- Backups simultáneos
- Indexaciones intensivas
Caso típico
Una empresa detecta lentitud diaria a las 15:00. CPU y RAM parecen normales, pero la monitorización histórica revela picos extremos de latencia de disco. El problema era un backup programado.
Mini-Test
1. ¿Qué métrica revela saturación de disco?
6.8 Consejos para Windows y Linux
Windows
- Usar Monitor de Rendimiento
- Guardar históricos BLG
- Crear recopiladores automáticos
- Supervisar Event Viewer
Linux
- Usar sar y sysstat
- Configurar cron para métricas
- Revisar journalctl
- Monitorizar swap y load average
Consejos generales
| Consejo | Importancia |
|---|---|
| Guardar histórico | Detectar tendencias |
| Correlacionar métricas | Diagnósticos correctos |
| Monitorizar antes del fallo | Prevención |
Mini-Test
1. ¿Qué comando Linux muestra logs en tiempo real?
6.9 Registro y análisis de sucesos
Los logs describen qué ha ocurrido, quién lo hizo y cuándo sucedió. Son esenciales para troubleshooting, auditoría y ciberseguridad.
Tipos de eventos
- Errores
- Advertencias
- Accesos
- Fallos autenticación
- Cambios configuración
Funciones principales
| Función | Objetivo |
|---|---|
| Troubleshooting | Resolver incidencias |
| Auditoría | Registrar actividad |
| Seguridad | Detectar ataques |
| Análisis | Identificar patrones |
Mini-Test
1. ¿Qué indican los logs?
6.10 Diagnóstico de problemas (Troubleshooting)
El troubleshooting consiste en localizar, analizar y resolver incidencias de manera estructurada.
Proceso habitual
| Fase | Acción |
|---|---|
| Identificación | Detectar el fallo |
| Recopilación | Analizar métricas y logs |
| Hipótesis | Buscar causa probable |
| Resolución | Aplicar corrección |
| Validación | Comprobar estabilidad |
Errores comunes
- Cambiar demasiadas cosas a la vez
- No guardar evidencias
- No revisar logs históricos
- Ignorar patrones repetitivos
Mini-Test
1. ¿Qué se analiza primero durante troubleshooting?
6.11 Auditoría y seguridad
Los logs de seguridad permiten reconstruir incidentes y detectar accesos sospechosos.
Eventos importantes
- Login correcto
- Login fallido
- Cambios privilegios
- Accesos denegados
- Modificaciones críticas
Buenas prácticas
| Práctica | Objetivo |
|---|---|
| Centralizar logs | Evitar pérdida evidencias |
| Conservar histórico | Auditorías |
| Alertas automáticas | Respuesta rápida |
| Normalizar eventos | Correlación eficiente |
Mini-Test
1. ¿Qué permite reconstruir un incidente?
6.12 Gestión centralizada, observabilidad e investigación
Splunk y ELK
Las plataformas modernas centralizan, indexan y analizan millones de eventos procedentes de toda la infraestructura.
ELK Stack
| Componente | Función |
|---|---|
| Logstash | Recolecta y transforma logs |
| Elasticsearch | Indexa y almacena |
| Kibana | Visualización dashboards |
Investigación de acceso fallido
Un usuario no podía acceder a una carpeta compartida. Los permisos parecían correctos. El Event Viewer mostró un evento 4663 indicando un token antiguo de seguridad. Tras cerrar sesión y volver a entrar, el acceso funcionó correctamente.
Mini-Test Final
1. ¿Qué componente visualiza dashboards en ELK?
2. ¿Qué ID de evento se usó en el acceso fallido?
3. ¿Qué plataforma empresarial analiza millones de logs?